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摘 要 : 随 着 深度 学 习 的 发 展 ， 越 来 越 多 的 深度 学 习 模 型 被 运 AAA 但 是 传统 的 深度 学 习 模 型 无 
法 解决 长 距离 依赖 问题 同时 ,远程 监督 将 会 不 可 避免 地 产生 错误 标签 ， 针 对 这 两 个 问题 ， 提 出 一 种 基于 GRU (gated 
recurrent unit) 和 注意 力 机 制 的 远程 监督 关系 抽取 方法 ， 首 先 通 过 使 用 GRU 神经 网 络 来 提取 文本 特征 ， 解 决 长 距离 依 
赖 问题 ; 接着 在 实体 对 上 构建 句子 级 的 注意 力 机 制 ,， 减 小 噪音 句子 的 权重 ; a 通过 计算 准确 率 、 
召回 率 ， OA ee 取得 了 比较 显著 的 进 
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Distant supervision relationship extraction based on GRU and attention mechanism 


Huang Zhaowei, Chang Liang, Bin Chenzhong", Sun Yanpeng, Sun Lei 
(Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology, Guilin Guangxi 541004, China) 


Abstract: With the development of deep learning, more and more deep learning models have been applied to the task of 
relation extraction, but traditional deep learning models cannot solve long distance dependence problems. At the same time, 
distant supervision will inevitably generate wrong labels. For these two problems, this work proposes a distant supervision 
relationship extraction method based on GRU (Gated Recurrent Unit) and the attention mechanism. First, the GRU neural 
network is adopted to extract text features and solve long-distance dependence problems. Second this work constructs a 
Sentence-Level Attention Mechanism on entity pairs to reduce the weight of noise sentences. Finally, based on the real data set, 
by calculating the accuracy rate and recall rate, the PR curve is drawn to prove the proposed method has achieved significant 


progress compared with some existing methods. 
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0 ”引言 管 现 有 的 知识 库 中 已 经 包含 了 大 量 的 知识 ， 但 随 着 大 数据 时 代 
的 到 来 ， 这 些 知 识 仍 无 法 满足 人 们 的 需要 ， 迫 切 的 需要 从 无 结 

关系 抽取 凯 不 仅 是 信息 抽取 的 任务 之 一 ， 也 是 构建 和 补 全 ” 构 化 的 文本 中 提取 出 结构 化 的 数据 。 
知识 图 谱 的 关键 所 在 ， 其 研究 的 主要 内 容 是 从 文本 内 容 中 挖掘 本 文 提 出 了 一 种 GRU (gated recurrent unit) 神经 网 络 和 注 
出 实体 与 实体 之 间 的 语义 关系 中， 从 纯 文本 生成 关系 数据 的 过 ” 意 力 机 制 相 结 合 的 远程 监督 关系 抽取 方法 (GRU_ATT) 。 采 用 
程 ， 是 自然 语言 处 理 NLP) 中 的 关键 任务 。 该 任务 可 以 描述 ”远程 监督 的 方法 ， 避 免 了 人 工 在 构建 数据 集 上 花费 的 时 间 与 精 
Fi, KA GRU 模型 克服 了 传统 深度 学 习 模 型 无 法 解决 长 距离 
依赖 四 的 问题 ， 同 时 在 句子 层面 上 引入 注意 力 机制 ， 有 效 控制 
类 别 ro 了 元 杂 数 据 给 实验 结果 带 来 的 影响 。 最 后 ， 在 真实 的 数据 集 上 
TEK, Freebase, DBpedia, YAGON AR Æ H E, 评估 GRU_ATT， 实 验 结果 表明 ， 与 现 有 方法 相 比 ，GRU_ATT 
在 NLP 任务 中 得 到 广泛 的 应 用 ， 包 括 搜索 、 推 荐 、 问 答 等 。 这 ”在 关系 提取 方面 取得 了 一 些 明显 的 进步 ,文章 的 主要 贡献 在 于 : 
些 知 识 库 都 是 由 三 元 组 事实 构成 ， 如 (姚明 ， 老 婆 ， 叶莉 )。 尽 ”a) 使 用 一 种 在 句子 层面 构建 注意 力 机 制 的 方法 ;b) 提 出 一 种 将 注 


u 


为 : 给 定 一 段 文本 S， 确 定 两 个 目标 实体 对 < el,e > 的 关系 
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意 力 机 制 与 GRU 相 


1 ”相关 工作 


传统 的 关系 分 类 的 方法 大 多 都 是 基于 模式 匹配 ， 
Harabagiu 等 人 I 提出 一 种 通过 结合 词汇 和 


结合 的 关系 


由 取 方 法 。 


例如 
语义 关系 来 进行 关 


系 分 类 的 方法 ; Kambhatla 提出 一 种 基于 逻辑 回归 的 关系 抽取 


方法 。 
之 处 在 于 : 


许多 传统 的 NLP 系统 被 ) 


这 些 基 于 模式 匹配 方法 都 取得 了 较 好 的 性 能 。 但 是 不 足 


来 提取 高 级 特征 ， 如 词性 


标签 、 最 短 依 赖 路 径 和 命名 实体 ， 从 而 导致 计算 成 本 的 增加 和 


RH, 


Chinax ive 


等 : RF GRU 和 注意 力 机 制 的 远程 监督 关系 抽取 


程 监督 关系 提取 的 方法 ， 使 用 CNN 来 提取 句子 特征 ， 之 后 为 


解决 错误 的 标签 问题 ， 构 建 句 子 层 


2 


有 句子 集合 $={s1,52,53,. 


a 


] GRU 来 提取 句子 的 语义 , 得 到 句子 的 语义 特征 
再 通过 注意 力 机 制 


计算 


额外 的 传播 误差 。 马 


个 缺点 是 


于 不 同 的 训练 数据 集 的 履 


mS BUR, FEI A 


方面 表现 不 佳 。 


KE BMA Et 
非常 耗 时 费力 。 


练 数据 ， 这 样 


成 训练 数据 集 。 


的 受 监督 关系 提取 方法 需要 大 量 的 标记 关系 训 
2009 年 Mintz 等 人 外 首次 提 
远程 监督 ,他们 通过 对 齐 三 元 组 知识 库 KB) 和 文本 ， 自 动 生 
也 们 假设 : 如果 两 个 实体 在 KB 中 有 关系 ， 那 


出 了 


么 包含 这 两 个 实体 的 所 有 句子 将 表达 这 种 关系 。 例 如，( 姚 明 ， 


老婆 ， 


叶莉 ) 是 KB 中 的 三 
个 实体 的 所 有 句子 视 为 该 关系 的 正 例 。 尽 管 远 


元 组 事实 。 远 程 监督 将 把 包含 这 两 


尽管 远程 监督 是 自动 标 


记 训 练 数据 的 有 效 策略 ,但 它 还 是 会 


例如 ， 


BWI Y 


“姚明 被 邀 参加 腾讯 体育 名 人 赛 ， 
明 与 叶莉 共同 出 现在 


kt 明 ” 和 “叶莉 ”， 
系 ， 在 远程 监督 中 1 
采取 多 示例 问题 的 处 理 


作 是 一 个 集合 ，j 


体 所 对 应 的 关系 ， 从 


带 来 一 些 错误 的 标签 问题 
叶莉 表示 非常 支持 “ 姚 


上 海 浦东 国际 机 场 ” 虽然 这 两 个 句子 中 都 
但 却 都 没有 表达 出 “老婆 ”的 关 
六 将 被 视 为 一 个 了 
办 法 ， 将 一 个 关系 所 标记 的 所 有 句子 看 
并 假设 集合 中 至 少 有 一 个 句子 能 表达 出 两 个 实 
而 有 效 的 减少 了 元 杂 数 据 对 应 远程 监督 的 


Riedel 等 人 00] 


E 例 。 因 此 ， 


影响 。 文 献 [11] 提 出 了 基于 概率 图 模型 的 多 实例 多 标签 模型 ， 


ri 


不 仅 对 噪声 训练 数据 进行 建 模 ， 而 且 针对 实体 对 和 所 属 关系 进 
H 


TERRIER, KAS 


吉 果 表明 该 模型 在 关系 抽取 效果 上 有 了 比 


特征 
Sy. 


2.1 


向 量 


点 乘 它们 的 权重 人 


面 的 注意 力 机 制 。 


关系 抽取 模型 GRU_ATT 
模型 总 体 结构 如 图 1 所 示 ， 首 先 得 到 包含 同一 对 实体 的 所 


osno FG si 转化 成 向 量 表示 如 FHE 


向量 Xi 之 后 ， 
得 到 相应 的 权重 4 ， 最 后 将 句子 的 语义 
再 求 和 ， 得 到 集合 S 的 向 量 表示 


| 2 
k Sy 


图 1 


向 量化 


2.1.1 词 向 量化 


给 定 一 个 1 


注意 力 机 制 和 GRU 神经 网 络 的 关系 抽取 模型 


t 个 


单词 组 成 的 句子 8 = (wy, w2,03,-.07} ， 
word2vec08 将 每 一 个 单词 wi 映射 到 


运用 


个 低 维 实 值 向 量 空 


将 句子 中 的 每 个 单词 的 


C1) 对 句子 进行 词 问 二 


其 中 : 
其 中 mm 是 一 个 


较 显 著 的 提高 。 


督 关系 抽取 方法 ， 将 关系 抽取 技术 运 | 
取 系 统 EARES, 通过 该 系统 生成 训练 语 


TN 


构建 了 


自动 化 模式 


Liu 等 人 0 提出 种 基于 卷 积 不 


神经 网 络 的 弱 监 


到 特定 的 领域 中 。 他 们 


料 ， 转 换 成 向 量 特 


行 分 类 模型 


E 和 矩阵 ， 最 后 使 用 半 
训练 实现 关系 提取 。Santos 等 人 03 提 


经 网 络 (CNN) 进 
出 了 一 种 在 没 


FRK 


有 手工 特征 的 情况 


使 ) 


深度 和 


该 方法 是 基于 句子 构建 分 类 器 , 由 于 
不 能 在 大 规模 的 知识 库 中 应 用 。Zeng 等 人 44 将 多 实例 学 习 与 神 


经 网 络 模型 相 结合 ， 
该 方法 在 关系 提取 方面 


ob A yak ae. 
能 令 人 满意 。 


标 也 是 从 众多 信息 中 ， 
目标 更 关键 的 信息 。 
加 入 了 注意 力 机 制 ， 
TZE, KE 


机 制 在 机 器 翻译 
力 机 制 首次 应 | 


到 NLP 领 


建立 了 基于 远程 


经 网 络 进行 


关系 分 类 的 方法 ， 
缺乏 人 工 注释 的 训练 数据 ， 


监督 的 关系 提取 器 ， 虽 然 


注意 力 机 制 和 人 类 的 选择 性 视觉 注意 力 机 制 类 似 ， 
通过 计算 概率 分 布 ， 选 择 出 对 当前 任务 


区 得 了 显 着 的 改进 ， 


但 是 效果 还 远 远 不 


核心 目 


文献 [15] 在 使 用 
之 后 Bahdanau # 


译 和 对 齐 同时 进行 ， 这 也 是 注 
域 中 。Lin 等 人 07 提 出 了 


RNN 模型 做 图 像 分 类 时 ， 
等 人 09 使 用 类 似 的 注意 力 
意 


种 基于 远 


AR: 


向 量 拼接 起 来 形成 句子 的 向 量 。 


量 处 理 。 


x= wword vi 


(1) 


ei Fe TA] wi AY [A 


Vs = {x1,%2,%3,--%} o 


2.1.2 位 置 向 量化 


的 词 向 量 表示 中 。 


在 关系 抽取 的 任务 4 
子 中 两 个 实体 之 间 的 关系 ， 因 此 为 
的 含义 ， 将 句子 中 每 一 个 单词 到 


形式 , wword <Rd "网 是 句子 的 向 量 矩 阵 ， 
固定 尺寸 的 单词 表 ， dv 
是 词 wi 的 one-hot 表示 。 最 终 得 到 句子 中 每 个 六 


表示 词 向 量 的 维 数 ，yi 
和 E 词 的 向 量化 表 


中 ， 往 


靠近 实体 的 单词 更 能 突显 出 名 
T 如 准确 地 表达 句子 
I 两 个 实体 的 距离 拼接 到 该 单词 


若 在 


位 


向 量化 的 维 


例如 “Beijing is the capital of China” 向 量化 如 图 2 所 示 ， 在 
这 个 句子 上 


FEA a?, 


句子 向 量化 中 ， 词 向 量化 的 维 
则 句子 向 量 的 维度 为 


度 为 d” y 


ds =d” +2dP (2) 


H “Beijing” fl “China” 作为 两 个 实体 ， 那 么 “is” 到 
“Beijing” 的 距离 的 为 -1, 到 “China”* 的 距离 为 4; “the” 到 “Beijing” 


的 距离 为 -2， 到 “China” 的 距离 为 3。 
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录用 稿 
y 2 
Bei jing nn ne ü| 5 
is |e ee ieee: -1 4 
the ereere -2 3 
China | ee =r || 0) 
图 2 句子 向 量化 
2.2 构建 GRU 


LSTM (long short term memory) 是 一 种 改进 的 RNN， 可 
以 学 习 长 期 依赖 信息 ， 由 Hochreiter & Schmidhuber 在 1997 年 
提出 ， 最 近 又 被 Alex Graves 进行 了 改良 和 推广 。GRUWI 是 
LSTM 的 一 种 变 体 ， 保 持 了 LSTM 的 效果 ， 同 时 又 使 结构 更 加 
简单 ， 减 少 了 训练 参数 ， 提 高 了 模型 训练 的 速率 。 

LSTM 是 一 种 复杂 的 网 络 结构 , 包含 三 个 门 计 算 即 忘记 门 、 
输入 门 和 输出 门 。 三 个 门 计算 用 来 增加 或 者 减少 细胞 状态 中 的 


信息 ，GRU 将 LSTM 中 的 忘记 门 和 输入 门 合成 为 一 个 单一 的 


更 新 门 ， 同 时 还 混合 了 细胞 状态 和 隐藏 状态 ， 更 新 门 用 于 控制 
前 一 时 刻 的 信息 是 否 被 带 入 到 当前 细胞 状态 中 , GRU 结构 如 图 


3 所 示 。 


图 3 GRU 模型 
将 上 一 节 中 得 到 的 句子 的 向 量化 表示 作为 该 步 输入 ， 以 第 
i 个 单词 为 例 , 说 明 第 i 个 单词 在 GRU 单元 各 个 状态 的 特征 值 : 


zt = rec(Whzht—1 +Wxz xt +bz) (3) 
t, = rec(Whyly_ + WirzX + Oy) (4) 
hy = tanhW rhy_1 + Wt + Dp) (5) 
hy = 0z) * h + ze * ly (6) 


其 中 : rec 激活 函数 选用 relu EB 


函数 ，X, 表示 当前 时 刻 的 输入 , h 


表示 记忆 体 ，W 表示 权 值 矩阵 ，2 表示 偏 置 量 。 
23 引入 注意 力 机 制 
恨 设 包含 实体 对 <eez> MAA FW 


Ax. 
fa) 


7 


黄 兆 玮 ， 等 : 基于 GRU 和 注意 


Sy = Dae (7) 


BRADY i 的 权重 。 为 了 验证 注意 力 机 制 的 引入 给 实验 


结果 带 来 的 影响 ， 用 两 种 方式 定义 A : 


第 一 种 ， 令 B= 上， 也 


就 是 说 ， 认 为 集合 中 所 有 的 句子 对 于 表达 关系 7 都 同等 重要 。 

显然 ， 这 样 是 不 合理 的 ， 因 为 集合 中 总 会 有 句子 不 表达 关系 7， 
这 种 见 杂 数据 就 会 给 实验 的 结果 产生 不 好 的 影响 。 第 二 种 ， 为 
了 避免 这 种 情况 的 发 生 , 减 小 这 种 噪音 数据 对 实验 结果 的 影响 ， 
准确 给 出 集合 中 每 个 句子 的 权重 ， 首 先 定 义 一 个 关于 si 和 7 的 


scores(i) = siAr (8) 


该 函数 描述 集合 中 某 一 个 句子 8 与 预测 关系 了 之 间 的 匹配 


程度 ,将 该 函数 的 取 值 范围 定义 在 [0,1] ，0 表示 某 个 句子 si 完全 
不 可 能 表达 + 关系， 相反，1 表示 某 个 句子 一 定 会 表达 + 关系 。 
A 为 一 个 对 角 和 矩阵 。 接 下 来 将 式 (8) 通过 softmax function 就 
得 到 第 i 个 句子 在 集合 中 的 权重 : 
exp(scores(i)) 
i pa exp(scores(k)) (9) 
接着 将 式 (9) 代 入 式 (7), 就 得 到 了 集合 5 的 向 量 形式 : 


exp(scores(i)) _ 
a se “i (10) 


exp(scores(k)) 


再 得 到 Sy 后 , 接 下 来 定义 一 个 线性 函数 就 可 以 计算 每 一 个 


可 能 的 关系 + 的 得 分 : 
y=MS, +b (11) 
M 是 一 个 关系 和 矩阵， 是 一 个 偏 置 量 。 
2.4 模型 训练 与 优化 求解 
采用 最 小 化 负 对 数 似 然 函数 来 进行 模型 训练 ， 接 着 将 式 


(11) 通过 softmax 层 定 义 条 件 概率 如 下 : 
一 
(12) 
j=l 
ny 表示 所 有 可 能 的 关系 。 接 下 来 采用 随机 梯度 下 降 算 法 来 
最 小 化 负 对 数 似 然 函 数 ， 定 义 优化 目标 函数 7(o) 计算 如 下 : 
J(a@)= Ferais, a)= ips a (13) 
exp(yj) 
j=l 


其 参数 (Mb, A) 表示 模型 训练 参数 ， 初 始 值 随机 给 定 


S ={51,52,53…, Sn}， 本 小 节 中 为 了 充分 利用 集合 中 每 一 个 句子 
的 信息 ， 引 入 注意 力 机 制 来 计算 注意 力 概 率 ， 从 而 体现 集合 
某 一 个 句子 对 于 集合 的 重要 程度 。 假 设 现在 判断 实体 对 
<@l,e2 > 是 否 具有 关系 矢量 7, 那么 集合 5S 中 的 每 一 个 句子 5; 都 
包含 了 该 句子 是 否 表达 了 关系 的 信息 ， 首 先 ， 将 集合 S 转化 
为 向 量 的 形式 % ， 计 算 公式 如 下 : 


表示 训练 样本 数 。 
3 ”相关 工作 实验 结果 


3.1 实验 数据 与 实验 环境 

实验 环境 :操作 系统 windows7,64 位 ;处理 器 Intel®) Core™ 
i5-4690; 内 存 大 小 为 8 GB; 编程 平台 Pycharm，Python2.7 版 
本 。 
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实验 数据 : 本 次 实验 采用 的 数据 集 ， 是 通过 将 Freebase 
中 的 实体 对 与 纽约 时 报 语料库 NYT》 对齐 而 生成 的 。 该 数据 
FIÈ Riedel 在 2010 年 首次 开发 使 用 的 ， 之 后 也 被 Raphael 
Hoffmann, Mihai Surdeanu、Lin 等 人 使 用 ， 该 数据 集 使 用 斯 坦 
福 大 学 的 命名 实体 识别 工具 对 纽约 时 报 语料库 进行 实体 标注 ， 
然后 再 与 Freebase 中 的 实体 进行 匹配 ， 生 成 数据 集 格式 如 表 1 
所 示 。 第 一 列 中 的 两 行 分 别 表示 第 一 个 实体 和 第 二 个 实体 的 id， 
第 二 列 中 的 两 行 分 别 表示 两 个 实体 ， 第 三 列表 示 关 系 ， 第 四 列 
表示 句子 。 假设 (Hunan, contains, changsha) 就 是 表示 Freebase 
中 的 一 条 三 元 组 数据 : 
provincial capital changsha is beginning to siphon some workers ” 
就 是 纽约 时 报 语料库 的 一 个 句子 , 将 Hunan 和 changsha 与 句子 
中 相同 实体 对 应 起 来 就 行 了 一 条 数据 。 

该 数据 集 包 含 特殊 关系 NACNA: 句 子 中 的 两 个 实体 没有 任 
何 关系 ) 在 内 ,一 共 53 种 关系 、39528 个 实体 。 训 练 集 包 含 522611 
个 句子 ，281270 个 实体 对 ，18252 个 关系 事实 ;测试 集 包含 
172448 个 句子 ，96678 个 实体 对 ，1950 个 关系 事实 。 

表 1 数据 集 格式 


TF 


“one reason is that hunan's fast-growing 


ram 


mt 


实体 Aid/ 实体 A/ 


关系 句子 
实体 Bid 实体 B 
one reason is that hunan's 
m.01669t/ Hunan/ fast-growing provincial capital 
./contains 
m.01cw6l changsha changsha is beginning to siphon 
some workers 
it echoed the insistence of his 
grandfather an immigrant from 
m.0dlw0/ Umbria/ 
./country umbria in italy that nary a word of 
m.03rj italy 
italian be heard in the family's new 
home in nice 
Since it bought youtbe last october 
google has been chasing deals that 
Google/ 
m.045c7b/m.01cw6 NA would give it the right to put 
youtube 


mainstream video programming on 


the site . 


3.2 评测 指标 
本 文通 过 采集 准确 率 (precision) 、 召 回 率 (recall) 绘 和 


E 


PR 曲线 ， 作 为 评价 指标 。 准 确 率 、 召 回 率 计算 公式 如 下 : 
precision= etenim (14) 
right_num 
recall=— — (15) 


right_num 表示 模型 预测 正确 的 数据 条 数 ，out 表示 一 共 预 
测 的 数据 条 数 ， all 表示 测试 集 总 共 的 数据 条 数 。 在 准确 率 相同 
的 情况 下 召回 率 越 高 越 好 ， 在 召回 率 相同 的 情况 下 准确 率 越 高 
越 好 ， 因 此 PR 曲线 越 在 右上 方 指标 越 好 。 


Rk, $: 基于 GRU 和 注意 力 克制 的 远程 监督 关系 抽取 


3.3 参数 设置 


J L2 正则 化 方法 对 网 络 参 
dropout 策略 ， 采 用 批量 的 
LABS SUZ 2 所 示 。 


采 作为 分 类 器 。 采 
数 进行 约束 ， 训 练 过 程 引 入 了 采用 
Adadelta 优化 方法 3 于 模型 训 Z Ko 


| Softmax 


K 2 参数 设置 
Vocab_size 16691 
Steps_num 70 
Classes_num 12 
Gru_size 230 
Layers_num 1 
Epochs_num 10 
Dropout_rate 0.5 


3.4 实验 结果 与 分 析 

3.4.1 与 现 有 方法 比较 

先 将 GRU_ATT 与 传统 基于 特征 的 关系 抽取 方法 相 比较 
得 到 图 4 所 示 实 验 结果 。 红 色 曲 线 代 表 GRU_ATT 的 实验 结果 ; 
绿色 曲线 是 Mintz[9]，2009 年 提出 的 传统 基于 远程 监督 的 关系 
抽取 模型 。 黑 色 曲 线 是 MultiR[20], 2011 年 Hoffmann 提出 的 
处 理 重 复 关 系 的 多 实例 学 习 模 型 。 在 整个 召回 范围 内 ， 
GRU_ATT 都 好 于 Mintz 与 MultiR 两 种 基于 特征 的 方法 .Mintz 
和 MultiR 在 召回 大 于 0.2 左右 的 时 候 开 始 迅 速 下 降 ， 而 
GRU_ATT 在 整个 过 程 中 都 相对 稳定 ， 这 表明 通过 人 工 设计 的 
特征 不 能 够 准确 的 表达 出 句子 的 语义 。 
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图 4 GRU_ATT 与 传统 基于 特征 的 方法 比较 

为 了 显示 GRU 模型 的 优势 ， 将 该 方法 与 2015 年 Lin 提出 
了 一 种 基于 远程 监督 关系 提取 的 方法 LTCNN_ATT 相 比较 ，{1 
们 通过 CNN 来 提取 句子 特征 ， 之 后 为 解决 错误 的 标签 问题 ， 
构建 句子 层面 的 注意 力 机 制 。GRU_ATT 与 CNN_ATT 对 比 实 
伶 结 果 如 图 5 所 示 。 
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415 GRU_ATT 与 CNN_ATT 对 比 实验 结果 
黑色 线条 是 CNN_ATT, 红色 线条 是 GRU_ATT。 在 该 任务 


piaj 
puzi 


录用 入 
P, CNN 只 能 抽取 位 置 不 变 的 特征 ， 不 能 学 习 时 序 序列 。 而 


GRU 因为 有 了 记忆 模块 ， 能 够 充分 利用 整个 句子 的 序列 信息 ， 
包括 各 个 词 之 前 的 关联 信息 ， 更 适合 自然 语言 处 理 的 任务 。 因 
此 ， 由 实验 结果 可 以 看 出 ，GRU_ATT 要 好 于 CNN_ATT. 
3.4.2 注意 力 机 制 对 实验 结果 产生 的 影响 
该 实验 部 分 是 为 了 验证 注意 力 机 制 的 引入 给 实验 结果 带 来 
的 影响 。 设 定 三 个 模型 ， 第 一 个 模型 只 采用 GRU, 不 引入 注意 


力 机 制 ， 第 二 个 模型 采用 GRU_AVE， 也 就 是 8 = 二 ， 将 同 对 


实体 对 的 所 有 人 句子 的 权重 都 看 做 一 样 ， 第 三 个 模型 就 是 
GRU_ATT， 对 比 实验 结 果 如 图 6 所 示 。 
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—GRU-AVE 
一 GRU 


0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 
Recal 


R6 注意 力 机 制 对 实验 结果 的 影响 

红色 线条 代表 GRU_ATT; 黑色 线条 代表 GRU_AVE; 绿色 
线条 GRU。GRU_AVE 引入 注意 力 机 制 ， 考 虑 了 句子 表达 的 意 
义 ， 从 而 减 小 了 抑 杂 数据 对 于 实验 结果 的 影响 ， 而 GRU 没有 
引入 注意 力 机 制 , 完全 不 考虑 噪声 数据 的 影响 , 因此 GRU_AVE 
的 实验 结果 要 好 于 GRU。 但 是 GRU_AVE 将 所 有 的 句子 都 看 做 
是 平等 的 ， 因 此 也 会 带 入 一 些 匈 杂 数 据 ， 那 些 表 达 错 误 关 系 的 
句子 就 对 实验 结果 产生 了 负面 的 影响 。GRU_ATT 在 整个 召 
目 实 现 了 最 高 的 精度 ， 这 表明 注意 力 机 制 的 引入 可 以 有 效 自 
减 小 远程 监督 中 元 杂 数 据 对 于 实验 结果 的 影响 。 
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本 文 提 出 了 一 种 新 的 神经 网 络 模型 GRU_ATT， 用 于 文本 
关系 提取 。 该 模型 克服 了 传统 深度 学 习 模型 无 法 解决 长 距离 依 
赖 问 题 ， 大 大 减 小 了 人 工 对 数据 标记 所 耗费 的 时 间 和 精力 ， 减 
小 了 元 杂 数 据 对 于 实验 结果 的 影响 。 在 公共 语料库 上 的 实验 结 
R, PR 曲线 也 有 所 提高 。 尽 管 由 于 注意 力 机 制 的 引入 ， 是 减 小 
了 元 杂 数 据 对 于 实验 结果 的 影响 ， 但 该 问题 并 没有 完全 解决 。 
下 一 步 工作 ， 将 着 重 考虑 如 何在 开放 领域 自动 发 现 关 系 ， 进 行 
关系 抽取 。 
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